花费 5 ms
【基础知识十六】强化学习

一、任务与奖赏 我们执行某个操作a时,仅能得到一个当前的反馈r(可以假设服从某种分布),这个过程抽象出来就是“强化学习”。 强化学习任务通常用马尔可夫决策过程MDP来描述: 强化学习任务的四 ...

Mon Sep 18 00:08:00 CST 2017 0 1921

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM